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例如 HO-DINA 模型 诞生 之 初 便 是 应 用 
内 存 消耗 大 ， 所 以 研究 者 开发 新 模型 时 
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了 良好 的 效果 (Chalmers, 2012; Chung 
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应 积分 算法 (Schilling 等 , 20053)， 拉 普 拉 斯 近似 算法 (Huber 等 , 2004), 


蒙特 卡 洛 期 望 极 大 (MCEM) 算法 (Meng 等 , 1996) 等 ， 这 些 算 法 的 提出 是 为 了 处 理 高 维 潜 变 
量 IRT 模型 ， 但 Cai (2010) 指 出 上 述 算法 依然 不 适用 于 高 维 IRT 模型 ， 所 以 Cai (2010) 又 开 
发 了 可 以 看 作 是 随机 EM 的 MHRM。 男 外 ， 虽 然 已 有 基于 随机 优化 的 EM 算法 应 用 于 教育 
测量 模型 (S. L. Zhang 等 , 2020)， 但 这 些 研究 没有 使 用 小 批量 优化 (mini batch) 和 方差 缩减 
AR, FA EM 算法 在 大 样本 下 的 参数 估计 较为 困难 。 最 后 ， EM 算法 对 研究 者 的 数学 与 
代码 功底 有 一 定 要 求 ， 所 以 研究 者 难以 应 用 EM 算法 开发 参数 较 多 、 结 构 较 复杂 的 模型 ， 典 
型 案例 是 前 面 所 提 的 HO-DINA 模型 ， 多 年 以 后 才 有 EM 算法 的 参数 估计 实现 形式 (Ma 等 ， 
2020)。 

随 着 人 工 智 能 的 发 展 , 为 解决 大 样本 和 多 参数 下 贝 叶 斯 模型 的 参数 估计 , 计算 机 研究 者 
发 展 了 变 分 推断 算法 , 并 将 该 算法 介绍 给 统计 学 研究 者 (Blei 等 ,2017), 统计 学 研究 者 也 开始 
使 用 变 分 推 产 (C. Zhang 等 , 2019)。 教 育 测量 领 域 也 有 研究 者 建议 使 用 变 分 推 关 进行 参数 估 
计 (Linden, 2016)。 随 着 概率 编程 软件 的 发 展 ， 变 分 推断 的 门槛 不 断 降低 ， 以 至 于 可 以 像 
MCMC 一 样 , 研究 者 仪 需 编写 少量 代码 , 即 可 完成 参数 估计 程序 , 易 用 性 上 超过 EM 算法 ， 
同时 变 分 推断 的 运算 时 间 少 于 MCMC 算法 (C. Zhang 等 ,2019)， 所 以 变 分 推断 可 能 是 非常 适 
合 教 育 测量 模型 的 参数 估计 算法 。 
© 目前 关于 变 分 推断 应 用 于 教育 测量 模型 的 研究 较 少 (Wu 等 , 2020)， 大 部 分 涉及 变 分 推断 


的 教育 测量 模型 研究 主要 集中 于 坐标 上 升 变 分 推断 (Cho 等 ,2020; Hui 等 , 2017; Imai 等 , 2016; 


Yamaguchi, 2020; Yamaguchi 等 , 2020)， 基 于 机 器 学 习 思 想 发 展 而 来 且 可 应 用 概率 编程 软件 


的 黑 盒 变 分 推 岂 (black box variational inference) 与 均 摊 变 分 推断 (amortized variational 


inference) 的 相关 研究 较 少 ， 仅 有 RT 参数 估计 的 相关 研究 (Chen, 2017; Curi 等 , 2019; Natesan 

等 , 2016; Wu 等 , 2020)，CDM 方面 暂时 还 是 一 片 空 白 (Minka (2009) 曾 经 以 变 分 推断 的 名 义 
展示 DINA 模型 的 参数 估计 ， 但 实际 使 用 的 是 期 望 传播 )。 坐 标 上 升 变 分 推断 (Blei 等 , 2017) 
需要 研究 者 手动 推导 参数 分 布 的 期 望 解析 式 , 有 一 定 的 技术 门槛 ， 且 只 适合 可 以 求 出 参数 分 
布 期 望 解析 式 的 模型 ， 该 算法 通用 性 与 易 用 性 较 差 。 黑 盒 变 分 推断 与 均 摊 变 分 推断 可 基于 概 
率 编 程 软件 (pyro(Bingham 等 ,2019)、edward(Tran 等 , 2016) 和 pymc3(Salvatier 等 , 2016) 等 ) 
编写 代码 , 易 用 性 较 高 。 黑 盒 变 分 推断 与 均 挫 变 分 推断 在 教育 测量 研究 中 存在 的 问题 主要 有 : 
一 是 损失 函数 梯度 的 选取 ，Wu 等 (2020) 和 Curi 等 (2019) 的 梯度 计算 均 是 依据 重 参数 算法 
(Kingma 等 , 2014)，CDM 是 否 能 应 用 重 参 数 算法 进行 参数 估计 还 吸 待 研究 ， 此外， 当前 还 缺 
乏 应 用 REINFORCE 梯度 的 研究 ， 二 是 Wu 等 (2020) 和 Curi 等 (2019) 的 研究 均 是 假设 IRT 


潜 变量 的 后 验方 差 协 方差 矩阵 是 对 角 和 矩阵 , 而 对 角 和 拖 阵 的 信息 量 明 显 低 于 任意 方差 协 方差 矩 


阵 ， 三 是 Wu 等 (2020) 和 Curi 等 (2019) 没 有 进行 参数 返 真 性 实验 ， 关 于 IRT 参数 的 返 真性 


问题 还 有 待 研 究 。 

综 上 所 述 , 变 分 推断 是 极 具 潜力 的 教育 测量 模型 参数 估计 方 法 。 本 研究 进一步 展示 黑 盒 
变 分 推 新 和 均 摊 变 分 推断 在 IRT 的 应 用 , 并 补 上 黑 盒 变 分 推断 和 均 挫 变 分 推断 在 CDM 上 的 
应 用 空 E 


2 变 分 推断 


2.1 损失 函数 


变 分 推断 的 原理 是 用 简单 的 分 布 晕 近 复 杂 的 真实 分 布 。 变 分 推断 的 损失 函数 称 为 ELBO 


(Evidence Lower Bound)， 具 体 公式 是 
ELBO = Ey, 2) [log pe (x, z) — log qg(2)] 
这 个 公式 由 计算 简单 的 分 布 与 复杂 的 真实 分 布 的 KL 距离 而 来 ， 即 
KL(q¢(z)|IPe(ZIx)) = logpe(x) 一 ELBO 
上 面 的 公式 中 ， 中 是 变 分 参数 ， 对 于 IRT 来 说 ， 中 = {wo}, EERS local 参数 ， 
0 是 正 态 分 布 的 scale 参数 ， 对 于 CDM， 中 = fp}，Pp 可 以 是 伯 努 利 分 布 的 参数 ， 也 可 以 是 分 


类 分 布 (categorical distribution) EX. 


2.2 平均 场 


变 分 推 岂 用 简单 的 近似 分 布 拟 合 真实 分 布 , 而 简单 的 近似 分 布 通常 描述 成 平均 场 的 形式 ， 
假设 参数 为 gi;， 参 数 的 分 布 为 qi(9i1)， 则 平均 场 为 q( 中 ) = [J qi(8i)。 平 均 场 的 优势 : 一 是 简 
化 了 近似 分 布 的 形式 ， 二 是 可 以 利用 动态 图 进行 损失 的 反 向 传播 (Wingate 等 , 2013). 


2.3 坐标 上 升 变 分 推断 


Hui 等 (2017) 和 Imai 等 (2016) 应 用 坐标 上 升 变 分 推断 实现 了 2 参数 probit 模型 的 参数 


标 上 升 变 分 推断 实现 对 DINA 模型 和 


TS 


fit, Yamaguchi (2020); Yamaguchi 等 (2020) 利用 4 
MC-DINA 模型 的 参数 估计 。 


坐标 上 升 变 分 推断 类 似 于 Gibbs 采样 ， 即 不 断 计算 参数 的 期 望 ， 具 体 简略 形式 如 下 


log($i(i)) x Eg,e9 los l¢)) + log(P(0))) 


坐标 上 升 变 分 推断 的 缺点 是 难以 推广 到 多 参数 IRT, 也 难以 推广 到 基于 logit 函数 的 IRT 


(严格 来 说 可 以 用 近似 的 方式 处 理 ， 但 较为 复杂 (Ormerod 等 , 2010) )。 


2.4 黑 盒 变 分 推断 


KAANTE Ranganath 等 (2014) 提 出 的 算法 ,英语 流利 说 (Chen,2017) 和 Natesan 等 


(2016) 应 用 概率 编程 软件 edward 和 pyro 实现 了 一 维 IRT 的 黑 盒 变 分 推断 参数 估计 。 


黑 盒 变 分 推断 的 参数 估计 流程 是 ， 一 是 对 变 分 参数 中 求 梯度 得 到 
VELB0 = E44) {Velog qo (2) [log pŒ z) — log qg (2)]} 

从 分 布 qg(z) 中 采样 zs，s = {123 .. S} 

于 是 得 到 变 分 参数 的 近似 梯度 


S 
1 
V»ELBO = s2, {[Vglogqg (2) ][log p, Zs) — log qg (25) 


S 
1 
$ = $ + p7 》f[yelogqy(zlllogpGx zs) — log qg (zs)]} 
s=1 


上 式 中 p 是 Robbins Monro 系数 ， 主 要 应 用 于 随机 优化 。 
重复 上 述 步 又 直至 变 分 参数 中 收敛。 


2.5 均 摊 变 分 推断 


黑 盒 变 分 推断 的 劣势 是 大 样本 下 潜 变 量 参数 量 会 爆炸 ， 同 时 如 果 遇 到 新 样 


PAS, MARI 


推断 需要 重新 学 习 ， 所 以 研究 者 提出 了 均 摊 变 分 推断 (C. Zhang 等 , 2019)。 比 较 典 型 的 均 挫 
变 分 推断 即 变 分 自 编码 器 (Kingma 等 , 2014)， 变 分 自 编码 器 的 思想 是 将 神经 网 络 作为 分 布 参 
数 的 生成 函数 , 这 是 利用 了 神经 网 络 的 万 能 通 近 性 质 (Homik 等 , 1989)。 应 用 均 摊 变 分 推断 ， 
近似 分 布 qq, (zi) 改 写 为 qrcx,) (zi)。 均 扒 变 分 推断 常 应 用 于 图 像 生成 等 人 工 智 能 任务 。 


2.6 重 参 数 化 


教育 测量 模型 即 包含 项 目 参 数 ， 又 包含 潜 变量 参数 ， 所 以 计算 梯度 时 会 遇 到 下 式 


Vo p ELBO = Vo p Eq 2 [log Po (X, z) — log qg(Z)] 


直接 计算 上 式 梯度 较为 困难 ， 所 以 需要 小 技巧 ， 例 如 重 参数 化 。 
正 态 分 布 的 重 参数 方法 ,假设 z ~ N(u,0), Se ~ NW(0,1)， 则 z = e *o 十 4， 则 ELOB 的 
梯度 为 


Vo, uo ELBO = Ego) [Vol0g Po (x, Z) — Vu clog qua(E * H+ o0)] 


重 参数 方法 可 应 用 于 IRT, VIBO 算法 (Wu 等 , 2020) 便 基于 此 重 参数 方法 。 


Ww 


离散 潜 变 量 的 重 参数 方法 ， 存 在 一 种 叫 Gumbel Softmax 的 算法 (Jang 等 ,2017)。Gumbel 
Softmax 的 流程 是 假设 二 维 向 量 v， 从 标准 Gumbel 分 布 中 采样 G1,G，。， 对 应 相 加 得 到 新 的 向 


量 = [vi 十 G1,v2 十 G2]， 通 过 softmax 函数 计算 概率 大 小 得 到 最 终 的 类 别 ， 即 6 (vj) = 


lin 


中 z 是 温度 参数 。CDM 理论 上 可 以 应 用 该 方法 的 HARD 模式 (Straight Through 


Gumbel-Softmax ) 。 


2.7 REINFORCE 


REINFORCE 是 另 一 种 计算 梯度 的 方法 。REINFORCE 梯度 的 数学 形式 如 下 
Vo,pELBO = E45) {Vglog qg(z) [log po (x,z) — log qg(z)] + Velog po (x, z) — Velog qe (2)} 
该 方法 既 可 用 于 连续 潜 变量 的 梯度 计算 ,也 可 用 于 离散 潜 变 量 的 梯度 计算 。 该 方法 在 人 
工 智能 中 常用 于 强化 学 习 (Williams, 1992)， 缺 点 是 随机 梯度 的 方差 较 大 ， 但 是 可 以 应 用 方差 
缩减 技术 尽力 克服 该 缺点 。 


2.8 随机 优化 与 方差 缩减 


变 分 推断 多 应 用 于 大 规模 数据 集 ， 所 以 研究 者 发 展 了 随机 优化 和 方差 缩减 的 技术 
(Hoffman 等 , 2013; Ranganath 等 , 2014)， 随 机 优化 即 每 次 从 样本 中 采样 小 批量 样本 计算 随机 
梯度 。 为 了 减少 随机 梯度 的 方差 , 研究 者 开发 了 包括 Rao-Blackwellization 和 Control Variates 


等 方差 缩减 方法 (Ranganath 等 , 2014)。 


3 实验 


3.1 模型 


模型 公式 中 参数 的 下 标 i 代 表 样 本 序号 , 下 标 /代表 项 目 (试题 ) 序 号 , yi 是 输入 数据 〈 作 
答 数 据 )。 


3.1.1 项 目 反 应 理论 


实验 选取 的 模型 是 2-4 参数 IRT 模型 。 


IRT 模型 的 数学 形式 如 下 。 
d; 一 Ci 
P(y;; |X) = 5+ 一 一 一 一 一 ,0< ci <dj <1 
J J 1+ exp(Xiaj 十 bj) 


Est! Xi 是 潜 变量 。 


3.1.2 认 知 诊断 模型 


实验 选取 的 模型 是 DINA 模型 和 HO-DINA 模型 


DINA 模型 的 数学 形式 如 下 。 
P(yi|oi) = g(a - sj)", 0 < Jj < 1,0 < Sj < 1,0 < Jj + Sj <1 


BK Torre (2011) 的 重 参数 化 版 本 


= TK gd = 
Est Nij = k=1 Čik ， a= [ci aiz， ay eels 


HO-DINA 模型 的 数学 形式 如 下 


exp(0iAix + Aox) 
1 十 exp(0i4 + Aox) 


上 式 中 m% 是 离散 潜在 变量 〈 属 性 掌握 模式 )，q4 关 是 @ 算 阵 的 元 素 。 


P(a@jx|0;) = Qin ~ Bernoutti(P(aix|0i)) 


3.2 参数 估计 


实验 代码 基于 pyro 和 pytorch 编写 ， 损 失 函 数 梯 度 基于 REINFORCE， 仅 在 CDM P% 


验 重 参数 梯度 〈 基 于 Gumbel Softmax 方法 ), 方差 缩减 基于 Rao-Blackwellization 方法 。 实验 


默认 潜 变 量 为 随机 参数 ， 项 目 参数 为 确定 参数 ， 蒙 特 卡 洛 采 样 潜 变量 时 只 采样 1 个 样本 。 


3.2.1 黑金 变 分 推断 


一 维 RT 模型 。 潜 变量 的 先 验 分 布 是 x; ~ NV(0,1)， 潜 变量 后 验 分 布 是 x; ~ N (uj, 07) 
该 方法 与 Wu 等 (2020) 的 方法 一 致 。 

多 维 IRT 模型 。 潜 变量 的 先 验 分 布 X; ~ NV(0,1)。 后 验 分 布 X ~ N (up ED, IRN 

DINA 模型 。 一 是 参考 Culpepper (2015) 的 Gibbs 算法 实现 ，wi = [aio Qiy.…, @im]> 
aio = [0,0,...,0], aig = [1,0,.….,0] 等 ， 若 属性 掌握 模式 的 维度 为 K， 则 Qi 列表 中 包含 2* 个 元 


A, MEPL Ma; PRE Ain» Ain ~ categoricat([pio,pit…,Pim])，Cin 的 先 验 分 布 是 @in ~ 


categoricat([1,1,.…..,1])， 该 设 定 仅 在 低 维 属性 掌握 模式 实验 中 使 用 ;， 二 是 属性 掌握 模式 


的 先 验 分 布 是 qi. ~ Bernomtti(0.5)， 属 性 掌握 模式 的 后 验 分 布 是 gi ~ Bernoutli(p,i)> 
该 设 定 仅 在 高 维 属性 掌握 模式 实验 中 使 用 。 


HO-DINA 模型 。 同 样 参考 Culpepper (2015) 的 Gibbs 算法 实现 。 高 阶 特质 的 先 验 分 布 是 


Bi ~ NW(0,1)， 高 阶 特质 后 验 分 布 是 9; ~N (uf) Wein = [Qi tizi] Wp = 


[IP(@ix|0;) ’ 然后 随机 的 从 wi 的 列表 中 采样 属性 掌握 模式 aipn ， Qin~ 


categoricat([pio, Pitre) Pim]) x; 


3.2.2 均 摊 变 分 推断 


一 维 IRT 模型 。 与 Wu 等 (2020) 方 案 一 致 ， 先 验 分 布 是 标准 正 态 分 布 , 后 验 分 布 参数 的 


生成 器 模型 


hi = 90%) 
Hi = Wahi + Du 


lo go,;? = W,h; + bo 


上 式 中 9 是 激活 函数 。 


作答 
Bee 


1 多 维 |RT 潜 变 量 生成 器 
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4 HE IRT 模型 。 后 验 分 布 local 参数 的 生成 器 模型 


hi = gi) 
Hi = Wahi + b, 
后 验 分 布 方差 协 方差 矩阵 参数 的 生成 器 


六 =tril (3 + exp(diag(L;)) 

X; = Lili 
tr 代表 取 和 矩阵 的 下 三 角 元 素 ，tril_ 代表 取 矩阵 下 三 角 元 素 且 不 包括 对 角 线 元 素 。 
还 有 一 种 是 潜 变量 共享 方差 协 方差 矩阵 ， 生 成 器 形式 如 下 


tril(L; 
tril(L*) = ure) 


L = tril_(L*) + exp(diag(L*)) 
2 = LI 
上 式 中 N 是 mini batch 的 大 小 。 
先 验 分 布 的 设 定 , 除了 Xi ~ NV(0,7 了 ), 均 挫 变 分 推断 还 引入 Xi ~ VW(0,0) 或 Xi ~ N (0,0) 
0 是 相关 和 抢 阵 ,0 的 计算 与 约束 参照 stan 软件 的 方案 (StanDevelopmentTeam, 2019)。 使 用 神经 
网 络 计算 的 9， 实验 称 为 神经 相关 矩阵。 


作答 = 作答 
数据 | \ 数据 


( 1 ) E | (a) 
~ PAW a | 7 ) 
{ 0 | = 1| (0) — 
—_ = Pori | o a 


2 神经 相关 和 矩阵 
该 形式 受 离散 变 分 自 编码 器 的 先 验 分 布 可 以 是 受 限 玻 尔 兹 曼 机 而 启发 。Xi ~ NONE 
价 于 Ls 惩罚 ， 所 以 先 验 分 布 是 对 没有 量 纲 的 潜 变 量 参 数 进行 约束 (Baker 等 ,2004)， 相 关 和 矩阵 
的 对 角 线 保证 了 潜 变 量 参数 的 量 纲 约 束 ， 而 相关 系数 的 自由 估计 又 保证 了 更 多 信息 的 纳入 。 
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图 4 DINA 模型 属性 掌握 模式 生成 器 2 
DINA 模型 。 参 考 Culpepper (2015) 实 现 的 后 验 分 布 生 成 器 是 
hi = 9%) 
Pim = softmax(h;) 
与 黑 盒 变 分 推断 第 二 种 形式 一 致 的 后 验 分 布 生成 器 


hi = gi) 
Pik = sigmoid(h;) 
FE IAA Ati RRENEN — BL 
HO-DINA 模型 。 后 验 分 布 生成 器 和 先 验 分 布 与 一 维 项 目 反应 模型 一 致 。 


3.2.3 缺失 数据 


实验 把 所 有 缺失 数据 当 作 可 以 忽略 的 缺失 数据 。 实 验 不 删除 存在 缺失 数据 的 样本 ， 除 非 
该 样本 所 有 数据 为 缺失 数据 。 缺 失 数据 带 入 神经 网 络 计算 时 ， 将 缺失 数据 赋值 为 -1 。 


3.2.4 模型 识别 


实验 采用 与 Fraser 等 (1988) 一 致 的 多 维 IRT 模型 识别 方法 ，flexmirt 和 R 包 mirt 也 采 


此 方法 。 


3.2.5 5 VIBO 的 区 别 


VIBO(Wu 等 , 2020) 是 另 一 种 变 分 推断 算法 ， 现 有 的 基于 黑 盒 变 分 推断 与 均 摊 变 分 推断 
的 教育 测量 模型 参数 估计 算法 均 可 以 看 作 是 VIBO。 


损失 梯度 ,VIBO 基于 重 参数 化 ,实验 基于 REINFORCE( 除 CDM 会 应 用 Gumbel Softmax 


重 参数 化 进行 实验 )，VIBO 无 法 应 用 于 CDM， 实 验 可 以 应 用 于 CDM. 

多 维 IRT 潜 变 量 后 验 分 布 。VIBO 的 方差 协 方差 矩阵 为 对 角 和 矩阵 ， 实 验 的 方差 协 方差 秆 
阵 为 任意 矩阵 。 

多 维 IRT 潜 变 量 先 验 分 布 。VIBO 的 方差 协 方差 矩阵 是 单位 和 矩阵， 实验 的 方差 协 方差 矩 
阵 有 单位 矩阵 和 和 神经 相关 矩阵 。 

缺失 数据 。VIBO 较为 复杂 ， 实 验 实现 较为 简单 。 


wa 


3.3 真实 数据 


3.3.1 LSAT 


LSAT 是 Thissen (1982) 发 布 的 用 于 测试 IRT 模型 的 作答 数据 , 来 源 于 美国 法 学 院 入 学 委 


会 的 法 学 院 入 学 考试 。LSAT 总 共 拥 有 1000 FEA, 5 道 试 题 。 


3 


3.3.2 PISA 


PISA 是 OECD 进行 的 15 岁 学 生 阅 读 、 数 学 、 科 学 能 力 评价 研究 项 目 。 实 验 选 取 的 是 
Wu 等 (2020) 清 洗 后 的 PISA 科学 测试 数据 , 二 级 计 分 , 519334 个 样本 , 183 Ml, 其 中 有 73283 
个 全 部 数据 为 空 的 样本 , 去 除 空 样本 后 , 最 终 保留 446051 个 样本 , 这 些 样本 中 包含 69014909 
个 缺失 数据 ， 总 计 缺 失 约 85% 数 据 ， 仅 有 15% 的 数据 有 效 。 


3.3.3 ECPE 


ECPE 全 称 英语 水 平 证 书 考试 (examination for the certificate of proficiency in English), 


总 共 包 含 2922 个 样本 ，28 道 试 题 ，3 种 属性 ， 已 在 Feng 等 (2014) 等 研究 中 使 用 过 。 


3.4 模拟 数据 


如 不 加 特殊 说 明 ，IRT 模型 的 题 量 设 定 


10 份 数 据 。 


50，CDM 的 题 量 设 定 是 100， 每 次 实验 模拟 


rau 


3.4.1 项 目 反 应 理论 


apj ~ UNif(0.5,3), b; ~ N(0,1), cj ~ unif(0.05,0.2), dj ~ unif(0.8,0.95), a,j 


k 维 度 上 的 斜率 ，X; ~ N(0, DIX; ~N (0, Le C7]) ，corr 取 值 0.3,0.5 和 0.7。 


3.4.2 认 知 诊断 模型 


第 一 种 : gj~ unif(0,0.3), s; ~ unif(0,0.3); qxj ~ bernoutti(0.5), ai ~ 


bernoutti(0.5)，hio ~ N(0,1), Au ~ Uni#$(0.5,3)， 属 性 掌握 模式 的 维度 设 定 为 5。 


第 二 种 : 参考 Li 等 (2020) 的 模拟 方案 , gj ~ unif(0,0.3), s; ~ wnif(0,0.3), 8 矩阵 为 


Ik 
Q= 网 [Fe K AEE DLIEM. Q1 E {0,1}xxk，Q1 元 素 下 标 为 (i, 门 元 素 为 1, i =1,2,...,K, 
Q2 


下 标 为 (i, i 二 1) 元素 为 1，i = 1,2,....K—1, HRTBAANO. Q e {0,1}xxk，Q2 元 素 下 标 为 


元 素 为 1，i = 2,3,...,K， 其 余 元 素 为 0。 属 性 掌握 模式 的 设 定 为 9: = [6)1,0i2,---Oix]> 9; ~ 
WV(0,Q9)，Q 是 除了 对 角 线 元 素 为 1， 其 他 元 素 为 p 的 矩阵 ， 实 验 设 置 p = 0.3。 该 设 定 仅 用 于 


实验 维度 较 高 的 属性 掌握 模式 。 


3.4.3 缺失 数据 模拟 


缺失 数据 模拟 设 定 缺 失 90% 的 数据 。 


3.5 对 照 软 件 及 算法 


IRT 实 验 的 主要 对 照 软 件 是 flexmirt 3.6.2(Chung 等 ,2020) 和 Wu 等 (2020) 开 发 的 VIBO。 


实验 对 照 算 法 是 BAEM、MHRM 和 VIBO。 仅 在 四 参数 模型 时 用 及 包 MIRT 1.32.8 (Chalmers, 


2012) 代 从 flexmirt。 


CDM 实验 的 对 照 软 件 是 R 包 GDINA 2.8.0， 对 照 算 法 是 EM. 


3.6 硬件 环境 


实验 环境 的 CPU 是 Intel(R) Xeon(R) Gold 5217 3.00GHz， 内 存 是 64G. 


4 实验 结果 


4.1 真实 数据 


对 于 真实 数据 , 仅 使 用 均 摊 变 分 推 类 进行 参数 估计 。 评 测 指标 使 用 AUC (McClish, 1989)。 
所 有 的 真实 数据 均 拆 分 成 测试 集 和 验证 集 ， 数 据 拆 分 比例 是 8:2。 


4.1.1 项 目 反应 理论 


实验 应 用 二 参数 IRT 对 数据 进行 分 析 。 


表 1 LSAT 参数 估计 拟 合 统计 量 


测试 集 验证 集 
先 验 分 布 维度 
AUC 边际 似 然 AUC 边际 似 然 

1 维 0.863 -2324 0.870 -586 
单位 矩阵 2 维 0.880 -2197 0.889 -555 

5 维 0.944 -2378 0.950 -597 

2 维 0.903 -2180 0.911 -549 

神经 相关 和 矩阵 
5 维 1.0 -1292 1.0 -336 
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表 2 PISA 参数 估计 拟 合 统计 量 


测试 集 验证 集 

先 验 分 布 维度 
AUC 边际 似 然 AUC 边际 似 然 
1 维 0.832 -5607747 0.831 -1401557 
单位 矩阵 2 维 0.835 -5612647 0.835 -1402651 
5 维 0.835 -5625003 0.835 -1405852 
5 维 0.860 -5343834 0.860 -1335769 

神经 相关 和 矩阵 

10 维 0.894 -4841089 0.894 -1211230 


表 1 和 表 2 ER: (C) 先 验 分 布 为 神经 相关 和 矩阵 比 单位 矩阵 的 拟 合 性 能 高 ;二 ) 高 维 
模型 比 低 维 模型 的 拟 合 性 能 高 .总 体 上 , 变 分 推断 在 LSAT 和 PISA 上 的 拟 合 性 能 较为 出 色 。 


U 


a b 
10 


10 


5 PISA 数据 10 维 参数 分 布 


4.1.2 认 知 诊断 模型 
表 3 ECPE 参数 估计 拟 合 统计 量 
测试 集 验证 集 
模型 高 阶 特质 维度 
AUC 边际 似 然 AUC 边际 似 然 
DINA NA 0.796 -31417 0.796 -7832 


HO-DINA 1 维 0.754 -40633 0.753 -10075 


2 维 0.746 -40752 0.745 -10128 


4.2 模拟 数据 


实验 结果 中 ，BBVI 代表 黑 盒 变 分 推断 ，AI 代表 均 挫 变 分 推断 ，a、pb、c、d、x 代 表 
IRT 中 相应 的 参数 ，g、s、h0、 如 代表 CDM 中 相应 的 参数 。 表格 中 的 数字 代表 RMSE 的 
平均 数 ， 括 号 内 的 数字 代表 RMSE 的 标准 差 。 


4.2.1 项 目 反 应 理论 


表 4 一 维 |RT 参数 估计 返 真 RMSE 


样本 模型 算法 a b C d 平均 耗 时 ( 秒 ) 
BBVI 0.24(0.03) 0.24(0.03) 0.05(0.005) NA 12 
3 参数 AI 0.24(0.02) 0.23(0.03)  0.05(0.004) NA 8 
BAEM 0.31(0.05) 0.33(0.04) 0.07(0.007) NA 3.5 
500 
BBVI 0.38(0.03) 0.38(0.05) 0.05(0.005) 0.06(0.005) 16 
4 参数 AI 0.36(0.04) ”0.35(0.04) 0.05(0.006) 0.04(0.005) 12 
BAEM 0.43(0.06) 1.02(0.74) 0.4(0.05) 0.04(0.06) 8 
BBVI 0.20(0.03) 0.19(0.03) 0.05(0.008) NA 11 
3 参数 AI 0.19(0.02) 0.18(0.02) ”0.05(0.007) NA 8 
BAEM 0.19(0.02) 0.25(0.04) 0.07(0.01) NA 11 
1000 
VI 0.37(0.04)  0.33(0.05) — 0.05(0.005)  0.05(0.005) 24 
4 参数 AI 0.32(0.04) 0.28(0.03) 0.05(0.005) 0.05(0.005) 17 
BAEM 0.35(0.03) 0.68(0.64) 0.04(0.004) 0.04(0.003) 1 


表 5 多 维 |RT 参数 估计 返 真 RMSE 


样本 模型 算法 a b 平均 耗 时 ( 秒 》 


BBVI 016(0.02) 0.09(0.01) 24 
Al 0.14(0.02) 0.09(0.01) 24 
1000 2 维 2 参数 
VIBO 1.29(0.11) 0.11(0.03) 61 
MHRM 0.13(0.01) 0.13(0.01) 54 
BBVI 0.17(0.04) 0.06(0.01) 95 
2000 3 维 2 参数 AI 0.14(0.02) 0.08(0.01) 34 
MHRM 0.13(0.01) 0.10(0.01) 126 
BBVI 0.25(0.03) 0.07(0.01) 115 
3000 5 AE 2 参数 AI 0.28(0.01) 0.08(0.02) 152 
MHRM 0.34(0.07) 0.12(0.07) 271 
表 6 维度 相关 多 维 |RT 参数 估计 返 真 RMSE 
模型 相关 系数 算法 a b 平均 耗 时 ( 秒 ) 
AI 0.09(0.03) 0.05(0.02) 15 
0.3 
MHRM 0.12(0.00) 0.08(0.00) 272 
AI 0.16(0.02) 0.07(0.03) 16 
2 维 2 参数 0.5 
MHRM 0.30(0.03) 0.08(0.03) 352 
AI 0.22(0.05) 0.06(0.02) 99 
0.7 
MHRM 0.55(0.03) 0.11(0.03) 270 
AI 0.13(0.04) 0.08(0.02) 99 
0.3 
MHRM 0..25(0.04) 0.08(0.05) 391 
AI 0.19(0.03) 0.05(0.00) 99 
3 AE 2 参数 0.5 
MHRM 0.56(0.02) 0.06(0.02) 404 
AI 0.36(0.01) 0.10(0.06) 145 
0.7 
MHRM 0.94(0.04) 0.16(0.04) 303 
表 7 中 等 数据 集 IRT 参数 估计 返 真 RMSE 
样本 题 量 模型 算法 a b 平均 耗 时 ( 秒 ) 
100k 1k 1 维 2 参数 AI 0.09 0.05 1251 
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EM 0.41 0.01 1918 


MHRM 0.18 0.01 9878 
Al 0.10 0.07 1450 

3 维 2 BR 
MHRM 0.23 0.05 17429 


表 4 未 显示 MHRM， 因 为 MHRM 在 一 维 多 参 数 模型 中 表现 不 稳定 《参数 估计 失败 2 
次 ); 表 5 未 显示 BAEM, 因为 BAEM 在 多 维 模型 中 过 于 耗 时 ; 表 6 中 flexmirt 软件 设 定 潜 
变量 协 方差 自由 估计 ， 变 分 推断 使 用 神经 相关 和 矩阵 作为 先 验 分 布 。 表 4、 表 5、 表 6 和 表 7 
显示 : (1) 维度 相关 模拟 数据 的 参数 返 真 ， 变 分 推断 有 较 大 优势 且 计 算 耗 时 低 于 MHRM; 
(2) 中 等 数据 集 的 参数 返 真 ， 变 分 推断 有 一 定 优势 且 计 算 耗 时 远 低 于 BAEM #1 MHRM; 
(3) 一 维 多 参 数 模型 的 参数 返 真 ， 变 分 推断 有 一 定 优势 ， 但 计算 耗 时 高 于 BAEM; (4) 多 
维 模型 的 参数 返 真 ， 变 分 推断 与 MHRM 基本 一 致 ， 计 算 耗 时 低 于 MHRM; (5) VIBO 算法 
在 二 维 模 型 中 表现 极其 欠 佳 ， 证 明了 之 前 的 猜测 ，VIBO 算法 不 适用 多 维 IRT 模型 。 


4.2.2 DINA 模型 之 重 参 数 法 VS REINFORCE 


表 8 重 参数 法 VS REINFORCE 梯度 


样本 量 梯度 g s 
REINFORCE 0.01 0.02 
1000 
Gumbel Softmax 0.16 0.54 


K 8 SEAN, Gumbel Softmax 重 参数 法 难以 应 用 于 DINA 模型 , 图 7 也 验证 了 这 个 结果 ， 
图 6 的 右 图 是 属性 掌握 模式 潜 变 量 网 络 输出 值 与 属性 掌握 模式 真 值 的 AUC 值 。 


1.0 — REINFORCE 
0. 0020 —— Gumbel Softmax 
0.9 90000 
0.8 0. 0015 80000 
0.7 x 
2 2 
= 2 0.0010 gg 0000 
0.6 
60000 
05 0. 0005 
50000 
0.4 
0. 0000 40000 
0 250 500 750 1000 0 250 500 750 1000 0 250 500 750 1000 
和 迭代 次 数 RRA 迭代 次 数 


6 重 参数 法 VS REINFORCE 梯度 


4.2.3 DINA 模型 和 HO-DINA 模型 


表 9 DINA 参数 估计 返 真 RMSE 


样本 量 算法 g s 平均 耗 时 〈 秒 ) 
BBVI 0.01(0.001) 0.03(0.005) 2 
500 Al 0.01(0.001) 0.03(0.005) 10 
EM 0.01(0.001) 0.03(0.002) 0.2 
BBVI 0.01(0.001) 0.02(0.005) 2 
1000 Al 0.01(0.001) 0.02(0.005) 10 
EM 0.01(0.001) 0.02(0.002) 0.4 
Al 0.003(0.0003) 0.007(0.0009) 15 

10000 

EM 0.003(0.0002) 0.006(0.0007) 3 


表 10 HO-DINA 参数 估计 返 真 RMSE 


模拟 。 算法 g s 1o d 平均 耗 时 G) 
BBVI _0.01(0.001) 0.02(0.003) 0.14(0.02) 0.26(0.11) 8 
500 Al 0.01(0.001) 0.02(0.003) 0.12(0.02) 0.28(0.11) 11 
EM 0.01(0.001) 0.02(0.003) 0.15(0.02) 0.35(0.1) 0.3 
BBVI 0.01(0.000) 0.02(0.001) 0.09(0.02) 0.23(0.05) 36 
1000 AI 0.01(0.000) 0.02(0.001) 0.09(0.03) ”0.23(0.05) 31 
EM 0.01(0.000) 0.02(0.001) 0.09(0.03) ”0.23(0.05) 0.5 
AI 0.004(0.000) 0.006(0.001) 0.05(0.02) € 0.16(0.06) 15 
10000 
EM 0.003(0.000) 0.006(0.001) ”0.03(0.01) ”0.06(0.03) 4 


K 9 和 表 10 显示 ， 变 分 推断 在 CDM 模型 上 的 参数 估计 返 真 精度 与 EM 基本 一 致 ， 但 
是 计算 耗 时 远 高 于 EM。 


4.2.4 高 维 DINA 模型 


表 11 高 维 DINA 模型 参数 估计 返 真 RMSE 


样本 量 时 性 掌握 模式 维度 g s 
1000 25 0.02 0.04 
3000 50 0.02 0.06 
10000 75 0.02 0.07 


EM 在 高 维 属性 掌握 模式 DINA 模型 上 的 空间 复杂 度 是 0(2NM)， 这 导致 EM 难以 应 用 于 
高 维 DINA, 所 以 实验 另 尝试 了 基于 随机 游 走 的 MCMC 算法 , 发现 MCMC 算法 是 变 分 推断 
的 3-10 倍 《〈 约 耗 时 3-10 小 时 不 等 )， 所 以 使 用 变 分 推断 进行 高 维 属性 模式 的 参数 估计 是 比 
较 经 济 的 选择 。 图 7 展示 了 高 维 属性 掌握 模式 的 返 真 程度 。 


— AUC = 0.87 


a, 0.4 0.6 0.8 1.0 0.0 0.2 0.4 06 0.8 1.0 
—_ 假 阳 率 假 阳 率 


7 高 维 属性 掌握 模式 AUC 


4.2.5 缺失 数据 


IRT 缺失 数据 实验 题 量 设 定 为 500, 模型 为 一 维 二 参数 , 随机 缺失 90% 的 数据 .HO-DINA 
缺失 数据 实验 设 定 题 量 为 S00， 随 机 缺失 90% 的 数据 。 


表 12 IRT 缺失 数据 参数 估计 和 返 真 RMSE 


样本 量 算法 a b 平均 耗 时 ( 秒 》 
BBVI 0.20(0.007) 0.12(0.004) 120 
1000 
AI(500) 0.17(0.005) 0.12(0.004) 80 
10000 AI(500) 0.09(0.009) 0.07(0.007) 100 


表 13 HO-DINA 缺失 数据 参数 估计 返 真 RMSE 


样本 量 。 算法 g s Ao Ay 平均 耗 时 〔 秒 ) 


BBVI 0.01(0.000) 0.03(0.003) 0.08(0.01) 0.22(0.03) 120 

1000 
Al 0.01(0.000) 0.03(0.003) 0.08(0.01) 0.22(0.03) 120 
10000 Al 0.004(0.000) 0.006(0.001) 0.04(0.02) 0.20(0.07) 180 


表 12 和 表 13 显示 ， 变 分 推断 在 处 理 缺 失 90% 的 数据 时 依然 能 保持 较 好 的 参数 返 真 性 


ZI 
CC 


5 结论 与 展望 


无 论 是 真实 数据 实验 , 还 是 模拟 数据 实验 , 均 显 示 变 分 推断 在 教育 测量 模型 上 有 较 高 的 
预测 性 能 和 参数 返 真 性 能 。 实 验 开发 的 潜 变 量 网 络 模型 以 及 神经 相关 矩阵， 展示 了 变 分 推断 
的 灵活 性 和 扩展 性 , 研究 者 可 以 利用 神经 网 络 的 万 能 逼近 性 质 或 黑 盒 变 分 推 其 的 简易 性 任意 
开发 自己 想 要 的 模型 。 研 究 限 于 篇 幅 没 有 展示 代码 , 但 代码 已 开源 , 研究 者 通过 开源 代码 可 
以 发 现 编写 变 分 推断 的 参数 估计 程序 与 编写 MCMC 的 参数 估计 程序 并 无 太 多 区 别 ， 变 分 推 
断 非 常 有 潜力 应 用 于 教育 测量 研究 环境 或 实验 环境 ， 可 以 帮助 研究 者 开发 新 的 教育 测量 模 


型 。 


实验 设计 的 算法 在 IRT 领域 达到 了 顶尖 水 准 (the state of the art)， 在 运行 时 间 和 参数 返 
真 上 均 领 先 或 不 弱 于 flexmirt， 所 以 极度 推荐 研究 人 员 使 用 变 分 推断 开发 新 的 IRT 模型 ， 也 
推荐 普通 用 户 在 应 用 场景 中 使 用 变 分 推断 算法 。 实 验 设计 的 算法 在 CDM 的 表现 差强人意 ， 
仅 在 高 维 属性 掌握 模式 上 超越 EM, 尽管 如 此 , 还 是 推荐 研究 者 使 用 变 分 推断 开发 新 的 CDM 
模型 ， 毕 竟 变 分 推断 能 节省 研究 者 的 开发 时 间 ， 至 于 普通 用 户 ， 还 是 推荐 使 用 GDINA 实现 


NI 


的 EM 算法 。 
研究 虽然 显示 了 变 分 推断 算法 在 教育 测量 领域 拥有 极 大 潜力 , 但 还 是 存在 一 些 问题 ， 
是 研究 虽然 给 出 了 神经 相关 矩阵, 并 且 通 过 模拟 数据 和 真实 数据 实验 获得 良好 效果 , 但 是 缺 
乏 理论 证 明 ; 二 是 实验 设计 的 算法 在 CDM 上 的 运行 时 间 太 长 ， 这 可 能 与 实验 采用 的 
REINFORCE 梯度 有 关系 (REINFORCE 梯度 的 方差 太 大 )， 而 重 参数 方法 在 CDM 上 的 使 用 
不 太 理 想 ， 变 分 推断 在 CDM 上 的 应 用 还 需 探 索 ; 三 是 标准 化 流 (Normalizing Flow) 的 应 


潜 变 量 的 分 布 可 能 并 不 是 简单 的 正 态 分 布 ， 所 以 可 能 需要 标准 化 流 来 优化 参数 的 分 布 ， 


实验 其 实测 试 了 基于 神经 网 络 的 自 回归 流 , 但 是 并 未 发 现 神经 自 回归 流 的 优越 性 , 所 以 并 未 
在 正文 中 阐述 标准 化 流 ， 这 个 有 待 后 续 研 究 ， 四 是 研究 展示 了 变 分 推断 的 随机 优化 ， 其 实 
MCMC 和 EM 上 也 可 以 应 用 随机 优化 , 即 随机 梯度 MCMC 以 及 随机 EM 算法 , 但 是 并 未 有 
相关 研究 在 这 两 项 参数 估计 技术 应 用 于 教育 测量 模型 ; 最 后 , 期望 有 更 多 的 像 变 分 推断 这 样 
的 AI 技术 应 用 于 教育 领域 。 
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